期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于注意力机制和金字塔融合的RGB-D室内场景语义分割
余娜, 刘彦, 魏雄炬, 万源
《计算机应用》唯一官方网站    2022, 42 (3): 844-853.   DOI: 10.11772/j.issn.1001-9081.2021030392
摘要411)   HTML18)    PDF (1447KB)(166)    收藏

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块。其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络聚焦于信息含量更高的多模态特征域;金字塔融合模块利用四种不同金字塔尺度特征,融合局部与全局信息,提取场景语境,提升物体边缘和小尺度物体的分割精度。将这两个融合模块整合到一个包含三个分支的“编码器-解码器”网络中,实现“端到端”输出。该模型在SUN RGB-D和NYU Depth v2数据集上与多层残差特征融合网络(RDF-152)、注意力互补网络(ACNet)、空间信息引导卷积网络(SGNet)等先进方法进行实验对比。实验结果表明,与最好的表现方法RDF-152对比,APFNet的编码器网络层数从152层降低到50层的情况下,像素精度(PA)、平均像素精度(MPA)、平均交并比(MIoU)分别提升了0.4、1.1、3.2个百分点,并对枕头、照片等小尺度物体和木板、天花板等大尺度物体的语义分割质量分别有0.9~4.5和12.4~18个百分点的提升;故该模型在处理室内场景语义分割问题上具有一定的优势。

图表 | 参考文献 | 相关文章 | 多维度评价